import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# nastavíme zobrazovanie grafov priamo v odstavcoch zápisníka
%matplotlib inline
# inicializujeme knižnicu seaborn
sns.set()


data = pd.read_csv("../data/titanic.csv") # načítame si dáta zo súboru ../data/titanic.csv
print(data.shape) # zobrazíme rozmer dátovej tabuľky v tvare (počet riadkov, počet stĺpcov)
print(data.columns) # zobrazíme názvy stĺpcov


data.head() # zobrazíme prvých 5 riadkov tabuľky


data.drop(columns="ticket", inplace=True) # odstránime stĺpec ticket priamo z dátového rámca data


 # hodnoty kategorických atribútov môžete premapovať pomocou metódy map objektu typu Series
data["embarked"] = data["embarked"].map({"S": "Southampton", "Q": 'Queenstown', "C":"Cherbourg"})
data["embarked"].value_counts() # zobrazíme si rôzne hodnoty po nahradení a ich početnosti


# metóda isna vráti tabuľku iba s Boolovskými hodnotami pre každý stĺpec (True - chýbajúca hodnota, False - neprázdna hodnota)
# sum potom spočíta počet hodnôt True (tzn. počet chýbajúcich hodnôt pre každý stĺpec)
data.isna().sum() # spočítame si počet chýbajúcich hodnôt


p = data["fare"].hist() # vykreslíme si histogram hodnôt


# vypočítame si strednú hodnotu a medián
fare_mean = data["fare"].mean()
fare_median = data["fare"].median()
print("fare mean: {0:.4f}, median: {1:.4f}".format(fare_mean, fare_median))


# keďže hodnoty fare sú značne vychýlené, chýbajúce hodnoty nahradíme mediánom, ktorý lepšie charakterizuje najčastejšie sa vyskytujúce hodnoty
data["fare"].fillna(fare_median, inplace=True)
data["fare"].isna().sum() # skontrolujeme počet chýbajúcich hodnôt po nahradení


# nahraďte chýbajúce hodnoty

# skontrolujeme počet chýbajúcich hodnôt po nahradení
data["embarked"].isna().sum()


# vytvoríme si nový atribút family, ktorý bude udávať celkový počet príbuzných (súčet sibsp + parch)
data["family"] = data.eval("sibsp + parch")
p = data["family"].hist()


# vytvoríme si nový binárny atribút has_family, ktorý bude udávať, či pasažier cestoval s rodinou
data["has_family"] = data.eval("family > 0")
data["has_family"].sum() # spočítame, koľko pasažierov cestovalo s rodinou


# definujeme si funkciu, ktorá z celého reťazca mena vyextrahuje iba časť titulu
def extract_title(name):
    if pd.isna(name): # pomocou pd.isna otestujeme, či je name prázdna hodnota
        return np.nan # ak je name prázdna hodnota, vrátime prázdnu hodnotu aj pre titul
                      # (prázdne hodnoty sú v pandas reprezentované číselnou konštantou np.nan - Not A Number)
    start = name.find(",") + 1
    end = name.find(".")
    return name[start:end].strip() # z mena vrátime podreťazec od , do . (bez prázdnych znakov na začiatku a konci)

# pomocou metódy apply aplikujeme našu funkciu extract_title na všetky hodnoty stĺpca name a vrátené hodnoty uložíme v stĺpci title
data["title"] = data["name"].apply(extract_title)
# stĺpec name už nebudeme potrebovať, tak ho odstránime z dátovej tabuľky
data.drop(columns="name", inplace=True)
# zobrazíme si tituly a koľko krát sa vyskytli
data["title"].value_counts()


# pomocou metódy apply si premapujeme tituly na skrátený zoznam, ktorý priradíme do stĺpca title_short
def map_title(title):
    # všetky hodnostné, alebo šľachtické tituly namapujeme na hodnotu 'rare title'
    if title in {"Master", "Dr", "Rev", "Col", "Major", "Don", "Jonkheer", "Sir", "Dona", "Lady", "Capt", "the Countess"}:
        return "rare title"
    elif title in {"Mlle", "Ms"}: # tituly z francúzštiny
        return "Miss"
    elif title in {"Mme"}:
        return "Mrs"
    return title;

data["title_short"] = data["title"].apply(map_title)
data["title_short"].value_counts()


# v kontingenčnej tabuľke si zoskupíme dáta podľa pohlavia a titulu pasažierov a vypočítame základné štatistiky o veku
# parameter margins=True pridáva do kontingenčnej tabuľky celkové štatistiky pre každý riadok a stĺpec
pd.pivot_table(data, index=["sex", "title_short"], values="age", aggfunc=["median", "mean", "min", "max", "count"], margins=True)


# zaujímavý je nízky vek mužov s šľachtickým titulom, zobrazíme si histogram hodnôt v tejto skupine pasažierov
l = data.query("sex == 'male' and title_short == 'rare title'")["age"].hist()


# najprv si vypočítame medián pre jednotlivé skupiny pomocou kontingenčnej tabuľky
ptable = pd.pivot_table(data, index=["sex", "title_short"], values="age", aggfunc="median")
ptable


# ak chceme napr. vypísať konkrétnu hodnotu na riadku pre kombináciu (female, Miss), musíme zadať index ako n-ticu
# (podobne by sme museli zadaň n-ticu hodnôt aj pre stĺpce, ak by sme mali hierarchické označenia stĺpcov)
ptable["age"][("female", "Miss")]


# do premennej age1 si uložíme iba neprázdne hodnoty age (pôvodné dáta sa nezmenia)
age1 = data["age"].dropna() # metóda dropna vráti iba záznamy s neprázdnymi hodnotami

# definujeme si funkciu s ktorou nahradíme chýbajúce hodnoty veku podľa pohlavia a titulu
# row bude objekt reprezentujúci jeden riadok v tabuľke
def replace_missing_age(row):
    # k hodnotám riadku pre jednotlivé stĺpce môžeme pristupovať indexovaním
    age = row["age"] # zistíme si vek, pohlavie a titul pasažiera
    sex = row["sex"]
    title = row["title_short"]
    # ak je vek chýbajúca hodnota, nahradíme ho mediánom v danej skupine určenej podľa pohlavia a titulu
    # (vypočítané hodnoty mediánov máme uložené v kontingenčnej tabuľke ptable)
    if pd.isna(age):
        return ptable["age"][(sex, title)]
    else:
        return age # inak vrátime známu hodnotu

# aplikujeme funkciu replace_missing_age na každý riadok tabuľky (axis=1, prednastavená hodnota axis=0 by aplikovala funkciu po stĺpcoch)
# výsledok sú hodnoty age s nahradenými chýbajúcimi hodnotami, ktoré si uložíme do premennej age2
age2 = data.apply(replace_missing_age, axis=1)

# pre porovnanie si naraz vykreslíme histogram bez nahradenia a po nahradení chýbajúcich hodnôt
p = plt.hist([age1, age2])


data["age"] = age2 # nahradíme stĺpec age s vyplnenými chýbajúcimi hodnotami v pôvodných dátach


data["fare"].describe() #zobrazíme si základné štatistiky pre atribút fare


data["fare_ordinal"] = pd.cut(data["fare"], 3) # pomocou metódy cut rozdelíme hodnoty do 3 rovnako veľkých intervalov
data["fare_ordinal"].value_counts() # zobrazíme si označenia intervalov a ich početnosti


# väčšina hodnôt patrí približne do intervalu od 0-170, pre lepšie pochopenie distribúcie hodnôt si zobrazíme histogram
p = data["fare"].hist(bins=20) # parameter bins udáva počet intervalov pre výpočet histogramu


# namiesto rozdelenia na rovnako veľké intervaly môžeme dáta rozdeliť pomocou metódy qcut na intervaly s približne rovnakým počtom hodnôt
data["fare_ordinal"] = pd.qcut(data["fare"], 3)
data["fare_ordinal"].value_counts() # zobrazíme si označenia intervalov a ich početnosti


# pri metóde cut môžeme priamo zadať hraničné hodnoty intervalov, napr. rozdelíme fare na intervaly [0-25], (25-100] a (100, 520]
# štandardne prvý interval nezahŕňa najmenšiu hodnotu, takže ak chceme zahrnúť aj 0 hodnoty, nastavíme include_lowest na True
data["fare_ordinal"] = pd.cut(data["fare"], bins=[0, 25, 100, 520], include_lowest=True)
data["fare_ordinal"].value_counts()


# označenia intervalov môžeme priamo pomenovať zadaním parametra labels
data["fare_ordinal"] = pd.cut(data["fare"], bins=[0, 25, 100, 520], include_lowest=True, labels=["normal", "more expensive", "most expensive"])
data["fare_ordinal"].value_counts()


# vypočítame tabuľku početností pre všetky kombinácie hodnôt medzi atribútmi pclass a sex
# všimnite si, že do metódy crosstab musíte narozdiel od pivot_table zadať ako index a columns
# priamo dátové atribúty (objekty typu Series)
pd.crosstab(index=data["pclass"], columns=data["sex"])


# podobne ako pri kontingenčnej tabuľke, ako riadky, alebo stĺpce môžeme zadať viacero
# atribútov
# napr. v nasledujúcej tabuľke vypočítame pre každú kombináciu triedy a výšky cestovného,
# koľko žien a koľko mužov si kúpilo daný lístok
pd.crosstab(index=[data["pclass"], data["fare_ordinal"]], columns=data["sex"])

Základné nastavenia¶

Dátová množina - Titanic¶

Úprava hodnôt¶

Nahradenie chýbajúcich hodnôt 1¶

Úloha 8.1¶

Odvodenie nových atribútov¶

Nahradenie chýbajúcich hodnôt 2¶

Prevedenie číselných atribútov na ordinálne - diskretizácia hodnôt¶

Závislosti medzi kategorickými atribútmi¶

Úloha 8.2¶

Úloha 8.3¶

Úloha 8.4¶

Úloha 8.5¶

Úloha 8.6 - bonusová úloha¶